近日,企鹅首席科学家,企鹅AI Lab及企鹅Robotics X实验室主任张正友在 2024 年中国三维视觉大会(China3DV 2024)上发表了精彩的主题演讲,并同享了企鹅在AI数字人领域的全新研究成果。
期间,张正友展示了以《与平精英》数字代言人吉莉为代表的全双工对话数字人技术,并进行了现场示范。
这是吉莉继出席联合国少妇署活动主题、央视五四青年节非常节目等场景之后的又一次公开了,进一步展示了光子工作室群在AI数字人领域的积淀与新寻觅。
技术革新,AI N电脑连接虚实集成世界
2024 年中国三维视觉大会由中国图象图形学学会(反恐精英IG)主办,是目前国产专属专注于三维视觉领域的学术盛会。本届大会配置了包括3DV和世界模型SLG、数字人等多个前沿论坛,吸引到相关领域超过1400名专家学者到场研讨。
会上,张正友表示,随着技术力进化,数字世界与真正世界的结合日趋紧密,虚实集成世界已成趋势。作为虚实集成世界交互的核心,数字人需要给人格化、姿势化、个性化三个方给持续进化,以帮助人类更好地完成数字、物理世界任务,同时避免交互多样化导致的失控风险。
在这样的理念下,企鹅光子工作室群联合企鹅 AI Lab对AI数字人的多链路技术能力进行了持续的研究和寻觅,以《与平精英》的数字人代言人吉莉为载体,团队聚焦于全双工对话数字人和高效动画制作管线两大方给。
全双工对话数字人:人机交互新篇章
为了实现更流畅、精准的人机交互,团队在语音识别、处理、数字人内容生成与语音播报等多个环节完成了决定因素技术积累。
识别阶段,ASR语音识别技术可在声学特点提取、声学模型、语言模型和语言处理等多种能力的配合下实时、准确地识别多样真人自然语言,实现真实意义上的“边说边听”。
处理阶段,数字人背后的对话能力依托于千亿级参数的LLM进行预训练加风格人设微调,同时依赖RAG技术向数字人对话内容进行姿势辅助,可快速理解用户意图,关联上下文内容,搜索相关姿势,最终生成逻辑清晰的回答,并依托TTS语音生成、SVC歌唱等技术,结合应用场景实现自主规划的主动对话。
另一方面,为推动语音交互给动画交互的进化,团队还在寻觅Speech2Face 脸部AI驱动算法与LLM-basedACT预测及生成等前沿技术,实现数字人多模态驱动。
通过Speech2Face 脸部AI驱动算法,数字人可实现更精细的口型、表情脸部驱动,LLM-basedACT预测及生成则可基于海量训练,达成数字人躯体和语言表达、场景等元素的自然配合,使其整体交互表现更趋近于真人。
在实机示范中,吉莉展现出了出色的交互能力。她能够即时理解用户需求,并向出自然流畅、情绪饱满的反馈。同时,她的口型、表情与ACT演绎都十分自然流畅,无论是对话、外形和ACT演绎,还是面部微表情、皮肤肌理都达到了细腻、逼真的程度,为用户带来了最新的体验。
创新动画制作管线:高效支撑内容生产
为了满足《与平精英》的内容生产需求,企鹅AI Lab与与平精英团队搭建了一套创新高效的AI动画制作管线。这套管线集成了3D渲染、面部表情生成、口型动画曲线生成、语音生成、ACT预测与设置等多种能力,并经过多次迭代与优化,全新的AI动画管线3.0算法利用高品质动画数据训练了能支持多语言、多情绪、多个性的预训练模型,并针对吉莉的人设与个性进行了综合的音频、情感、面部动画数据采集与模型优化。这使得吉莉的面部表达更加完备、细腻,能够呈现出个性化的演绎效果。
在算法底层表达方面,从基础的36个BS脸部驱动AI动画管线1.0,到扩展的62个BS脸部AI动画管线2.0实现更细致的控制,再更新到当前基于MetaHuman绑定的185个非线性控制器表达AI动画管线3.0,数字人的面部表达的完备性、细腻度一直持续提高。
该模型利用多模态神经网络来处理不同模态的输入信息,并采用自研Diffusion-LSTM架构生成对应的面部驱动系数,使得这些系数所产生的动画能够匹配音频的咬字、节拍,情感的类型与起伏,以及具有高表现力的个性化演绎。
此外,该管线还支持将高品质的MetaHuman动画重定给到自定义的绑定要求,以及准无损的动画压缩,支持更多样化的需求。
目前,该动画制作管线已能够支撑游戏宣传、商业合作等多种内容制作,通过这套管线,团队能够高效、高品质地完成动画视频制作,大幅提高了制作效率,同时确保了动画质量,为用户提供了更好的内容体验。
科技给善,智能数字人发挥多元价值
在持续提高用户体验的同时,光子工作室群也积极践行企鹅“科技给善”的价值观。吉莉作为《与平精英》的数字代言人,不断参加到文化传承、公益合作、竞技推广等工作中来,为多个领域赋能。随着AI数字人技术的日益成熟,吉莉正以其强大的表现力,创造着寻觅科技给善的更多也许性。
作为一种受年轻人喜欢的新媒介,数字人在给青年群体传递正给价值观方面发挥着重要作用。在2022年央视五四青年节非常节目中,依托于光子工作室群自研的RBF骨骼绑定系统等前沿技术,吉莉以高保真的动态形象打破次元壁,和现实青年演员、歌手、高校学子们一同送出了别开生面的虚实融合表演,以一首《New Youth》展现青年朝气,号召青年兄弟打破陈规,创新进取。
此后,作为全球首位出席联合国少妇署活动主题的数字人,吉莉又在相关活动主题中做了一次三分钟、一镜究竟的主题演讲。团队通过优化3S材质提高皮肤质感,以Houdini及Xgen解算还原服饰毛发动态,让吉莉以更生动、细致的近景形象融入现实世界,以自身在游戏世界中的故事,给世界传递放开、多元的正给价值观。
2023年,吉莉又化身大熊猫巡护员,虚实结合“穿梭”大熊猫国家公园,深入知道大熊猫巡护员的工作,给公众普及大熊猫保护姿势。她以实际行动倡导环保和公益精神,呼吁更多人关注与参加野生动物保护工作。
AI与数字人技术不仅为游戏产业带来创新,更在科普、教学等领域发挥着重要作用。面对网络诈骗等社会问题,《与平精英》和国家反诈中心合作推出创意短片《Game World》,通过吉莉和反诈民警的联动,给广大游戏玩家普及诈骗案例、相关法规及反诈手段。
作为现实世界的数字映射,数字人还为品牌、文化提供了新的推广渠道与场景。吉莉通过多次联动,将彭水苗绣、西湖、冬奥冰雪运动等优质文化IP带入游戏世界,助力中国文化的数字化传承和发展。
和此同时,AI数字人技术正在动画、视频制作、文保、文旅、医疗、情商城市、工业自动化、公益等多个领域发挥重要作用,数实融合,为人们创造更加美好的生活。
初见成效,技术团队持续精研深耕
截至目前,《与平精英》数字人的多次落地应用已经取得了显著的成效与好评。在商业与用户体验层面,AI动画管线的支持使得动画制作周期缩短近50%,提高了内容制作效率。同时,团队得以将更多精力投入到内容策划与质量提高上,为用户带来了更优质的内容体验。这一成果在具体案例中得到了验证,运用AI管线后的内容在主推、播放、评论赞等数据上均获取了大幅提高。
社会价值方面,吉莉与游戏IP积极响应号召,以自身媒介特性与IP影响力传递正给价值观,为优质文化的传播贡献力量。五四青年节相关话题在当时多次登上热搜,关于与平青年、大熊猫保护等话题也引起热烈讨论,都体现了数字技术在传播正给价值观方面的积极作用。这些成果的取得离不开光子工作室群对技术的持续寻觅和深耕。
大家可以看到光子工作室群、《与平精英》与企鹅 AI Lab在技术布局寻觅、产品长线发展等方面的考虑与行动,不仅展现了企鹅的技术实力与创新精神,更为整个行业树立了新的标杆。通过持续的精研、寻觅与落地实践,团队正在持续积累势能的同时,坚定地将技术服务于用户体验与社会正给价值,以更多元、创新的能力与方法为更广泛的商业、文化领域带来正给价值。未来,大家期待看到更多基于AI数字人技术的创新应用出现,为推动虚实集成的技术发展做出更大贡献。